首发 | 腾讯AI Lab多篇论文入选CVPR、ACL及ICML等顶级会议
感谢您阅读腾讯AI Lab微信号首篇文章,我们将在文章第一部分介绍即将开幕的CVPR、ACL和ICML等顶级AI学术会议,及它们收录的腾讯AI Lab多篇论文,并选取其中一篇重点解读。第二部分是公众号内容简介及文章预告,我们将在之后发布的三篇文章里对前述三大顶会的热门研究方向和优秀文章做深度解析。
1
CVPR
IEEE Conference on Computer Vision and Pattern Recognition
IEEE国际计算机视觉与模式识别会议
7月21日 - 26日 | 美国夏威夷
CVPR是近十年来计算机视觉领域全球最有影响力、内容最全面的顶级学术会议,由全球最大的非营利性专业技术学会IEEE(电气和电子工程师协会)主办。2017谷歌学术指标(Google Scholar)按论文引用率排名, CVPR位列计算机视觉领域榜首。今年CVPR审核了2620篇文章,最终收录783篇,录取率29%,口头报告录取率仅2.65%。
腾讯AI Lab计算机视觉总监刘威博士介绍到,「CVPR的口头报告一般是当年最前沿的研究课题,在学界和工业界都影响很大,每年都集齐如斯坦福大学和谷歌等全球最知名高校和科技公司。」
腾讯AI Lab六篇论文入选CVPR
论文一:Real Time Neural Style Transfer for Videos
本文用深度前向卷积神经网络探索视频艺术风格的快速迁移,提出了一种全新两帧协同训练机制,能保持视频时域一致性并消除闪烁跳动瑕疵,确保视频风格迁移实时、高质、高效完成。
* 此论文后附详细解析
论文二:WSISA: Making Survival Prediction from Whole Slide Histopathological Images
论文首次提出一种全尺寸、无标注、基于病理图片的病人生存有效预测方法WSISA,在肺癌和脑癌两类癌症的三个不同数据库上性能均超出基于小块图像方法,有力支持大数据时代的精准个性化医疗。
论文三:SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning
针对图像描述生成任务,SCA-CNN基于卷积网络的多层特征来动态生成文本描述,进而建模文本生成过程中空间及通道上的注意力模型。
论文四:Deep Self-Taught Learning for Weakly Supervised Object Localization
本文提出依靠检测器自身不断改进训练样本质量,不断增强检测器性能的一种全新方法,破解弱监督目标检测问题中训练样本质量低的瓶颈。
论文五:Diverse Image Annotation
本文提出了一种新的自动图像标注目标,即用少量多样性标签表达尽量多的图像信息,该目标充分利用标签之间的语义关系,使得自动标注结果与人类标注更加接近。
论文六:Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation from Single and Multiple Images
基于曼哈顿结构与对称信息,文中提出了单张图像三维重建及多张图像Structure from Motion三维重建的新方法。
CVPR重点论文解析
CVPR选中的六篇文章,我们将重点解析《视频的实时神经风格迁移》(Real-Time Neural Style Transfer for Videos)[1]这篇颇具创新的文章。
在过去很长一段时间内,业界流行的图像滤镜通常只是对全局颜色属性的调整,比如亮度、色相、饱和度等。在2016年的CVPR,Gatys等人[2]首创性地提出将深度神经网络应用于图像的艺术风格迁移,使得输入图像能够模仿如梵高的星空、莫奈的日出印象等任何类型的艺术风格,效果惊艳。
Gatys等人工作虽然取得了非常好的效果,但是缺点是基于优化,非常耗时;到2016 ECCV时,Johnson等人[3]提出了使用深度前向神经网络替代优化过程,实现了实时的图像风格迁移,修图工具Prisma随之风靡一时。但直接将图像风格迁移的方法应用到视频上,却会使得原本连贯的视频内容在不同帧中转化为不一致的风格,造成视频的闪烁跳动,严重影响观感体验。为了解决闪烁问题,Ruder等人[4]加入了对时域一致性的考虑,提出了一种基于优化的视频艺术滤镜方法,但速度极慢远远达不到实时。
腾讯AI Lab科学家使用深度前向卷积神经网络,探索视频艺术风格快速迁移的可能,提出了一种全新的两帧协同训练机制,保持了视频时域一致性,消除了闪烁跳动瑕疵,同时保证视频风格迁移能够实时完成,兼顾了视频风格转换的高质量与高效率。
视频艺术滤镜模型如下图所示。通过损失网络(Loss Network)计算连续两个输入视频帧之间的损失来训练风格变换网络(Stylizing Network)。其中空间损失(Spatial Loss)同时描述了图像的内容损失以及风格损失;时间损失(Temporal Loss)描述了两个风格变换后的视频帧之间的时间一致性。
文章相关论文
[1] Haozhi Huang, Hao Wang, Wenhan Luo, Lin Ma, Wenhao Jiang, Xiaolong Zhu, Zhifeng Li, and Wei Liu. Real-Time Neural Style Transfer for Videos. CVPR, 2017.
[2] L. A. Gatys, A. S. Ecker, and M. Bethge. Image style transfer using convolutional neural networks. CVPR, 2016.
[3] J. Johnson, A. Alahi, and L. Fei-Fei. Perceptual losses for real-time style transfer and super-resolution. ECCV, 2016.
[4] M. Ruder, A. Dosovitskiy, and T. Brox. Artistic style transfer for videos. German Conference on Pattern Recognition, 2016.
2
ACL
Meetings of the Association for Computational Linguistics
国际计算机语言协会年会
7月30日 - 8月4日|加拿大温哥华
腾讯AI Lab副主任
语音识别和深度学习专家
俞栋博士
ACL是计算语言学里最重要的国际会议,今年是第55届。会议涵盖生物医学、认知建模与心理语言学、交互式对话系统、机器翻译等各个领域,今年有194 篇长论文、107 篇短论文、21 个软件演示及 21 篇主题演讲。在2017谷歌学术指标(Google Scholar)按论文引用率排名, ACL是计算机语言学和自然语言处理领域最高级别国际学术年会。
腾讯AI Lab副主任俞栋认为,「自然语言的理解、表达、生成和转换一直是自然语言处理的核心问题。近年来有很多新的解决思路和方法。今年的ACL涉及自然语言处理的各方面,尤其在语义解析、语义角色标注、基于语义和语法的自然语言生成、机器翻译和问答系统方向上都有一些有趣的工作。」
腾讯AI Lab主任张潼介绍到,「ACL早期利用语法和规则分析自然语言,90年代后,随着以LDC(Linguistic Data Consortium)为代表的自然语言数据集建立扩充,统计自然语言方法在计算语言学里作用越来越大并成为主流。2000年后随着互联网高速发展及以自然语言为核心的人机交互方式兴起,自然语言研究被赋予极高应用价值。」
腾讯AI Lab三篇文章入选ACL
论文一:Modeling Source Syntax for Neural Machine Translation
本文提出将句法树转化为句法标签序列的轻量级方法,有效将源端句法信息引入神经网络翻译系统,被证实能显著提高翻译效果。
论文二:Chunk-Based Bi-Scale Decoder for Neural Machine Translation
本文引入一个额外组块神经网络层,从组块到词的层次生成译文,帮助实现神经网络翻译系统短语级别的建模,实验表明该方法在多种语言上都能显著提高翻译效果。
* 本文作者亦致谢前任职机构
论文三:Deep Pyramid Convolutional Neural Networks for Text Categorization
文章提出了一种能有效表达文本长距离关系的复杂度词粒度CNN。本文研究了如何加深词粒度CNN对文本进行全局表达,并找到了一种简单网络结构,通过增加网络深度提升准确度,但不过多增加计算量。实验表明15层的DPCNN在六个情感和主题分类任务上达到了目前最佳结果。
3
ICML
International Conference on Machine Learning
国际机器学习大会
8月6日 - 11日|澳大利亚悉尼
腾讯AI Lab主任
机器学习和大数据专家
张潼博士
机器学习是人工智能的核心技术,而ICML是机器学习最重要的两个会议之一(另一个是NIPS)。ICML源于1980年在卡内基梅隆大学举办的机器学习研讨会,现由国际机器学习学会(IMLS)主办。2017谷歌学术指标以「机器学习」关键词排名,ICML位列第一。
腾讯AI Lab主任张潼博士介绍到,「很多经典论文和算法,如CRF,都是在ICML上首次提出的,这个会议涉及机器学习相关的所有研究,包括近年非常热门的深度学习、优化算法、统计模型和图模型等。在早期,ICML更注重实验和应用,而NIPS更注重模型和算法,但近年来两个会议有些趋同。」
腾讯AI Lab四篇文章入选ICML
论文一:Scaling Up Sparse Support Vector Machines by Simultaneous Feature and Sample Reduction
本文提出了第一个能在模型训练开始前,同时检测和去除稀疏支持向量机中不活跃样本和特征的筛选算法,并从理论和实验中证明其能不损失任何精度地把模型训练效率提升数个量级。
论文二:GSOS: Gauss-Seidel Operator Splitting Algorithm for Multi-Term Nonsmooth Convex Composite Optimization
本文提出了求解多块非光滑复合凸优化问题的算子分裂新算法,该算法采用Gauss-Seidel迭代以及算子分裂的技巧处理不可分的非光滑正则项,并以实验证实了该算法的有效性。
论文三:Efficient Distributed Learning with Sparsity
本文提出了一个高维大数据中能更有效学习稀疏线性模型的分布式算法。在单个机器训练样本足够多时,该算法只需一轮通信就能学习出统计最优误差模型;即使单个机器样本不足,学习统计最优误差模型的通信代价只随机器数量对数曲线上升,而不依赖于其他条件数。
论文四:Projection-free Distributed Online Learning in Networks
本文提出了去中心化的分布式在线条件梯度算法。该算法将条件梯度的免投影特性推广到分布式在线场景,解决了传统算法需要复杂的投影操作问题,能高效处理去中心化的流式数据。
此外,我们还受邀参加以下三个会议:8月7日-11日东京举办的SIGIR(国际计算机协会信息检索大会),入选论文3篇。8月19日-25日墨尔本举办的IJCAI(国际人工智能联合会议),入选论文6篇。及9月7日-11日哥本哈根举办的EMNLP(自然语言处理实证方法会议),入选论文7篇。欢迎现场交流。
关于腾讯AI Lab微信
腾讯AI Lab于2016年四月成立,专注于机器学习、计算机视觉、语音识别和自然语言理解四个领域「基础研究」,及内容、游戏、社交和平台工具型四大AI「应用探索」,提升AI的决策、理解及创造力,向「Make AI Everywhere」的愿景迈进。
腾讯AI Lab主任及第一负责人是机器学习和大数据专家张潼博士(详情可点链接),副主任及西雅图实验室负责人是语音识别及深度学习专家俞栋博士。目前团队有50余位AI科学家及200多位应用工程师。
一年多以来,我们主要通过行业会议及学术刊物分享研究成果。今天,我们正式入驻微信,聚焦中国AI前沿「思考」、实验室「动态」与学术产业「研究」三块内容,用专业严谨且平实易懂的语言,希望在更广范围内,连接不同层次的从业者,以开放、深入和持续的交流,共同构想AI未来。
机器与机器间的连接,能让已知信息随时随地共享。而人与人的连接,则让未知碰撞,产生更璀璨的智慧火光。让我们借此火光前行,共创「让AI无处不在」的未来。
下期内容预告
接下来发布的三篇文章中,我们将邀请参会的腾讯AI Lab科学家,从CVPR、ACL及ICML现场发回第一手独家见闻,深度解析会议热门研究方向与优质文章。敬请关注!